Önálló labor : Nagy nyelvi modellek és beszédfelismerési modellek integrálása

Budapesti Műszaki és Gazdaságtudományi Egyetem - BME -- Távközlési és Médiainformatikai Tanszék - TMIT

BME - Távközlési és Mesterséges Intelligencia Tanszék - TMIT

| Témakiírások | | | | | IW

Témakiírások

Önálló labor

Aktuális témakiírások

Kiírt témák

>>Témakiírások >>

Nagy nyelvi modellek és beszédfelismerési modellek integrálása (Integration of LLM's and speech recognition models)
A természetes beszéd automatikus szöveggé konvertálása még mindig jelentős kihívás, ha a beszélők szétválasztása, az írásjelezés, névelemek tag-elése, az idegen nyelvű kifejezések felismerés és a zajban is nagy pontosság a követelmények között van. Noha a klasszikus/neurális nyelvmodellek alkalmazása alapvetőnek számít ezen a területen, a (nagyon) nagy nyelvi modellek (LLM-ek, pl. GPT-4, ChatGPT, LLAMA, BARD, stb.) felhasználása egyáltalán nem magától értetődő. A hallgató feladat feltárni a közvetlen, beszéd-szöveg konverziót segítő és az utólagos (pl. korrekciós) LLM alkalmazásokat. A téma diplomatervig - és azon túl is - továbbvihető.
Converting natural speech into text remains a significant challenge when requirements include speaker separation, punctuation, named entity tagging, recognition of foreign language expressions, and high accuracy even in noisy environments. While the application of classical/neural language models is fundamental in this domain, the use of (very) large language models (LLMs, e.g., GPT-4, ChatGPT, LLAMA, BARD, etc.) is far from straightforward. The task for the student is to explore both direct applications of LLMs in supporting speech-to-text conversion and their use in post-processing (e.g., correction). This topic can be extended to a thesis project - and beyond.
Kulcsszavak: LLM, deep learning, beszéd-szöveg átalakítás
Témavezető: Mihajlik Péter
Oktatók: Mihajlik Péter.
A következő tantárgyakhoz javasolt:
	vitma387	(Önlab, IVIR szakirány)
	vitma415	(Szakdolgozat)
	vitma416	(Szakdolgozat)
	vitma417	(Szakdolgozat, IVIR szakirány)
	vitmal01	(Info, BSc, Önálló laboratórium)
	vitmm855	(Info, MSc, Önálló laboratórium 2, Hálózatok és szolgáltatások)
	vitmm861	(Info, MSc, Önálló laboratórium 2, Médiainformatika)
	vitmm905	(Diplomatervezés 1. (Info, Hálózatok és szolgáltatások szakirány))
	vitmm911	(Diplomatervezés 1. (Info, Médiainformatika szakirány))
	vitmml10	(Info, MSc, Önálló laboratórium 1)
	vitmml11	(Info, MSc, Önálló laboratórium 2)
	vitma345	(Vill., BSc. Önálló laboratórium)
	vitma414	(Szakdolgozat)
	vitmal03	(Vill.mérn. BSc Önálló laboratórium)
	vitmm807	(Vill., MSc, Önálló laboratórium 1, Infokommunikációs rendszerek)
	vitmm857	(Vill., MSc, Önálló laboratórium 2, Infokommunikációs rendszerek)
	vitmm907	(Diplomatervezés 1. (Vill. Infokommunikációs rendszerek szakirány))
	vitmml02	(Vill,MSc,Önlab.1, Okos város,Vez.nélküli rendsz. és alk.ok,Multimédia rendsz. és szolg.,Optikai távközlés (VITMML02))
	vitmml03	(Vill,MSc,Önlab.2, Okos város,Vez.nélküli rendsz. és alk.ok,Multimédia rendsz. és szolg.,Optikai távközlés (VITMML03))
	vieum821	(Önálló munka 1)
	vitmm379	(Önálló laboratórium 1)
	vitmm380	(Önálló laboratórium 2)
	vitmm381	(Diplomatervezés 1)
	vitmm382	(Diplomatervezés 2)

QR: (mi is az?)
	katt. a nagyításhoz
	Kedvencekbe felvesz Jelentkezés

Nagy nyelvi modellek és beszédfelismerési modellek integrálása (Integration of LLM's and speech recognition models)